0.1 Data input
install_load('readxl')
data <- read_excel("Data FSVA 2022 -- multivariate.xlsx")
install_load('DT')
datatable(data, filter = 'top',
options = list(pageLength = 10))
rownames(data) <- data$Wilayah
1 No 1.a
Analisis komponen utama pada ke-9 indikator!
Untuk analisis nya, dapat menggunakan plot matriks korelasi maupun matriks kovarians. Matriks korelasi yang berisi nilai-nilai korelasi pada dasarnya digunakan untuk mendapatkan keeratan hubungan antar peubah yang diteliti. Nilai korelasi inilah yang nantinya akan dibandingkan dengan nilai korelasi yang diperoleh dari Analisis Komponen Utama.
install_load('factoextra','ggcorrplot')
ggcorrplot(cor(data[,-c(1,2)]), type="lower",lab = TRUE)
Dari plot matriks korelasi di atas terlihat bahwa korelasi
negatif tertinggi ialah korelasi antara indikator
Tanpa Air Bersih (%) dengan
Lama Sekolah Perempuan (tahun) yakni sebesar \(-0.63\). Sedangkan korelasi negatif
terendah ialah antara indikator
Lama Sekolah Perempuan (tahun) dengan
Rasio Tenaga Kesehatan yakni sebesar \(-0.3\). Disisi lain, korelasi positif
tertingginya ialah antara indikator Kemiskinan (%) dengan
Tanpa Air Bersih yakni sebesar \(0.56\). Sedangkan korelasi positif terendah
adalah antara indikator NCPR degnan
Peneluaran pangan (%) yakni sebesar \(0.11\).
2 No 1.b
Berikan penjelasan berapa banyak komponen utama yang sebaiknya dipertahankan untuk menggambarkan data ini tanpa banyak keragaman data asal yang terbuang!
pca_data <- prcomp(data[,-c(1,2)],scale=TRUE,center=TRUE)
summary(pca_data)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.1028 1.0764 0.89187 0.75883 0.73160 0.67314 0.6307
## Proportion of Variance 0.4913 0.1287 0.08838 0.06398 0.05947 0.05035 0.0442
## Cumulative Proportion 0.4913 0.6200 0.70842 0.77240 0.83187 0.88222 0.9264
## PC8 PC9
## Standard deviation 0.58726 0.56338
## Proportion of Variance 0.03832 0.03527
## Cumulative Proportion 0.96473 1.00000
Standard deviaton merupakan akar dari akar ciri (eigenvalue). Dalam hal ini akar ciri berperan sebagai variance dari masing-masing komponen utama.
Proportion of Variance menjelaskan seberapa besar keragaman peubah asal yang dapat dijelaskan oleh masing-masing komponen utama. Semakin besar nilainya berarti semakin baik pula komponen utama tersebut untuk merepresentasikan peubah asal. Lalu pada tabel diatas, nilai terbesarnya iyalah PC3 dengan nilai \(0.08838\) sedangkan nilai terkecilnya ialah PC9 dengan nilai \(0.03527\).
Cumulative Proportion menjelaskan seberapa besar keragaman yang dapat dijelaskan oleh komponen utama secara kumulatif. Misalnya saja dengan menggunakan dua komponen utama saja (PC1 dan PC2), sudah bisa menjelaskan 62% keragaman dari data.
fviz_screeplot(pca_data,geom="line")
Hal lain yang bisa dilakukan untuk menentukan berapa banyak komponen
utama yang digunakan adalah dengan screeplot. Banyaknya
komponen utama bisa ditentukan dengan screeplot dengan melihat di
komponen utama yang mana garisnya berbentuk seperti siku (elbow). Pada
gambar diatas, garis membentuk siku saat berada di komponen utama kedua
(dimension kedua). Namun jika melihat pada Cumulative
Proportion nya, Komponen Utama 1 dan Komponen Utama 2 hanya
dapat menjelaskan 62% keragaman dari data saja. Dan jika melihat pada
Proportion of Variance nya, PCA3 adalah nilai
terbesarnya dengan nilai \(0.08838\) .
Walaupun siku yang terbentuk pada plot tidak terlalu tajam, Namun dengan
2 pertimbangan yang sudah dijelaskan. Maka banyaknya komponen utama yang
digunakan sebanyak tiga (Komponen Utama 1, 2, dan 3).
3 No 1.c
Berapakah besarnya kontribusi 2 komponen utama pertama dalam menjelaskan keragaman data asal?
pca_data <- prcomp(data[,-c(1,2)],scale=TRUE,center=TRUE)
summary(pca_data)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.1028 1.0764 0.89187 0.75883 0.73160 0.67314 0.6307
## Proportion of Variance 0.4913 0.1287 0.08838 0.06398 0.05947 0.05035 0.0442
## Cumulative Proportion 0.4913 0.6200 0.70842 0.77240 0.83187 0.88222 0.9264
## PC8 PC9
## Standard deviation 0.58726 0.56338
## Proportion of Variance 0.03832 0.03527
## Cumulative Proportion 0.96473 1.00000
Seperti yang sudah dijelaskan sebelumnya pada no1.b.. 2 komponen utama dapat menjelaskan 62% dari keragaman data asal. Angka ini bisa dibilang besar. Ini bisa di dukung oleh plot screeplot nya.
fviz_screeplot(pca_data,geom="line")
Yang mana jika kita melihat ulang, maka siku tertajam berada di angka 2.
4 No 1.d
Berikan interpretasi pada 2 komponen utama pertama!
datatable(pca_data$rotation, filter = 'top',
options = list(pageLength = 10))
Interpretasi metode PCA dapat dilakukan dengan menggunakan vektor ciri pada masing-masing komponen utama. Semakin besar vektor ciri pada komponen utama tertentu, maka semakin besar pula kontribusi dari peubah asal untuk membangun komponen utama tersebut. Catatan lain yang perlu diperhatikan adalah nilai negatif pada vektor ciri menandakan peubah asal memberikan kontribusi yang berkembalikan pada pembentukan komponen utama. Dalam konteks vektor ciri negatif, semakin besar nilai peubah asal semakin kecil nilai pada komponen utama.
Vector ciri yang akan dinterpretasikan hanya pada PC1 dan PC2. PC1 memiliki vektor ciri yang relatif sama yaitu berkisar di 0.3 untuk semua Indikator. Vektor ciri yang relatif sama ini menandakan bahwa kontribusi peubah asal untuk membangun komponen utama ini relatif sama. Artinya nilai-nilai yang ada di PC1 (score value) dapat menggambarkan ketahanan pangan untuk semua indikator. Oleh karena itu kita dapat dapat menggunakan PC1 untuk menentukan wilayah mana yang memiliki ketahanan pangan terbaik untuk semua indikatornya.
PC2 memiliki vektor ciri yang relatif sama juga yaitu berkisar di 0.2. Vektor ciri yang relatif sama ini menandakan bahwa kontribusi peubah asal untuk membangun komponen utama ini relatif sama. Artinya nilai-nilai yang ada di PC2 (score value) dapat menggambarkan ketahanan pangan untuk semua indikator. Oleh karena itu kita dapat dapat menggunakan PC2 untuk menentukan wilayah mana yang memiliki ketahanan pangan terbaik untuk semua indikatornya.
Note: Interpretasi komponen utama memiliki subjektifitas yang tinggi, oleh karena itu setiap orang menginterpretasikanya berbeda.
Hal terakhir yang bisa diinterpretasikan adalah score value pada PC1 dan PC2. Score value merupakan observasi/koordinat baru pada peubah komponen utama. Dalam konteks data pelari diatas, observasinya adalah negara, sehingga kita dapat memberi insight cabang perlombaan lari dari setiap negara. Untuk melihat score value pada komponen utama dapat dilihat dengan menggunakan sintaks berikut.
datatable(pca_data$x, filter = 'top',
options = list(pageLength = 10))
Agar lebih mudah dalam menginterpretasikan score value maka digunakaan grafik di bawah ini.
fviz_pca_ind(pca_data,col.ind = "darkred")
Berdasarkan grafik score value dapat diketahui bahwa negara yang memiliki catatan ketahanan pangan terbaik untuk semua indikator adalah wilayah baris 479 (papua - puncak jaya)
data$Wilayah[479]
## [1] "papua - puncak jaya"
5 No 2.a
Lakukan analisis MANOVA untuk membandingkan keenam kategori komposit berdasarkan 9 indikator ketahanan pangan. Gunakan taraf nyata 5%. Apakah kesimpulannya?
install_load('car')
## Loading required package: carData
model <- manova(cbind(NCPR, `Kemiskinan (%)`, `Pengeluaran Pangan (%)`,
`Tanpa Listrik (%)`,
`Tanpa Air Bersih (%)`, `Lama Sekolah Perempuan (tahun)`,
`Rasio Tenaga Kesehatan`, `Angka Harapan Hidup (tahun)`, `Stunting (%)`) ~ `Kategori Komposit`, data=data)
summary(model)
## Df Pillai approx F num Df den Df Pr(>F)
## `Kategori Komposit` 1 0.85577 332.28 9 504 < 2.2e-16 ***
## Residuals 512
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary.aov(model, intercept = FALSE)
## Response NCPR :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 911.55 911.55 1206.6 < 2.2e-16 ***
## Residuals 512 386.80 0.76
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Kemiskinan (%) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 10860 10860.0 314.51 < 2.2e-16 ***
## Residuals 512 17679 34.5
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Pengeluaran Pangan (%) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 6899 6898.6 35.726 4.26e-09 ***
## Residuals 512 98867 193.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Tanpa Listrik (%) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 10346 10346.3 237.37 < 2.2e-16 ***
## Residuals 512 22317 43.6
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Tanpa Air Bersih (%) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 76263 76263 286.06 < 2.2e-16 ***
## Residuals 512 136500 267
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Lama Sekolah Perempuan (tahun) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 163.71 163.711 72.552 < 2.2e-16 ***
## Residuals 512 1155.30 2.256
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Rasio Tenaga Kesehatan :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 14652 14651.7 175.12 < 2.2e-16 ***
## Residuals 512 42836 83.7
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Angka Harapan Hidup (tahun) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 1971.6 1971.56 244.69 < 2.2e-16 ***
## Residuals 512 4125.4 8.06
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response Stunting (%) :
## Df Sum Sq Mean Sq F value Pr(>F)
## `Kategori Komposit` 1 5756.8 5756.8 122.2 < 2.2e-16 ***
## Residuals 512 24119.8 47.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hasil dari analisis MANOVA menunjukkan bahwa terdapat perbedaan yang signifikan antara keenam kategori komposit (Kategori Komposit) berdasarkan 9 indikator ketahanan pangan yang telah dianalisis. Ini dapat dilihat dari nilai p-value yang sangat kecil (kurang dari tingkat signifikansi 0.05) pada setiap variabel respons.
Berikut adalah interpretasi untuk setiap variabel respons:
NCPR:
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal Nilai Konsumsi Per Kapita Rata-rata (NCPR).
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Kemiskinan (%):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal tingkat kemiskinan.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Pengeluaran Pangan (%):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase pengeluaran untuk pangan.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Tanpa Listrik (%):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase rumah tangga tanpa listrik.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Tanpa Air Bersih (%):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase rumah tangga tanpa akses air bersih.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Lama Sekolah Perempuan (tahun):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal lamanya pendidikan perempuan.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Rasio Tenaga Kesehatan:
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal rasio tenaga kesehatan.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Angka Harapan Hidup (tahun):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal angka harapan hidup.
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Stunting (%):
Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase stunting (kondisi gizi buruk pada anak).
Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).
Kesimpulannya, berdasarkan analisis MANOVA, dapat disimpulkan bahwa ada perbedaan yang signifikan antara kategori komposit dalam semua indikator ketahanan pangan yang telah dianalisis. Hal ini menunjukkan bahwa faktor kategori komposit memiliki pengaruh yang signifikan terhadap berbagai aspek ketahanan pangan di wilayah tersebut.
6 No 2.b
Susunlah selang kepercayaan simultan 95% untuk menentukan kategori yang memiliki perbedaan rataan yang signifikan.
7 No 2.c
Apakah asumsi MANOVA dapat dipenuhi oleh data tersebut?